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BESCHREIBUNG 

Verfahren und System zur Erhohung der Verfiigbarkeit eines 
Systems von Computerprogrammen in einem verteilten Computer- 
system 

Die im folgenden ausfiihrlich beschriebene Erfindung bezieht 
sich auf Datenverarbeitungssysteme und insbesondere auf Systeme 
und Verfahren zur Verbesserung der Fehlertoleranz in Datenver- 
arbeitungssystemen . 

Die Verfiigbarkeit wird wie folgt beschrieben: "Wenn ein System- 
stimulus vom System verarbeitet wird und das System innerhalb 
einer zugeordneten Reaktionszeit ein richtiges Ergebnis fur 
diesen Stimulus erzeugt und dieses Ergebnis fur alle Stimuli 
zutrifft, betragt die Verfiigbarkeit des Systems 1.0. M 

2u einer hohen Betriebsverfiigbarkeit tragen zahlreiche Faktoren 
bei: (1) Fehler im Hardware- und Softwaresystem miissen mit aus- 
reichend hoher Deckungsrate erkannt werden, um die Anforderun- 
gen zu erfiillen; (2) die Eigenverfiigbarkeit der Hardware (als 
einf ache numerische Verfiigbarkeit seines Redundanznetzes) , ein- 
schlieSlich interner und externer Redundanz, muB hoher als die 
erf order liche Betriebsverfiigbarkeit sein; und (3) Software- 
fehler diirfen nicht sichtbar sein oder die betriebliche Nutzung 
des Systems nicht nachtraglich beeinf lussen. Die Erfindung be- 
schaftigt sich mit dem dritten Faktor und geht dabei von der 
wichtigen Annahme aus, daB Sof twaref ehler aufgrund von 
Designfehlern und Hardwaref ehlern hauf ig auftreten und fatal 
sind. 

In der herkommlichen Technik wurde versucht f dieses Problem 
durch doppelte Kopien der gesamten Sof twarekomponente auf zwei 
oder mehr Einzelprozessoren und die Bereitstellung eines 
Mittels zur Obermittlung des "Gesundheitszustands" des aktiven 
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Prozessors an den Ersatzprozessor zu losen. Wenn der Ersatz- 
prpzessor durch die Uberwachung des Zustands des aktiven Pro- 
zessors feststellt, daB der Ersatzprozessor den Betrieb iiber- 
nehmen muB, initial isiert er die gesamte gespeicherte Software- 
komponente, und der aktive Prozessor beendet seine Operationen. 
Das Problem bei dieser Verf ahrensweise ist, daB das gesamte 
System an der WiederherstellungsmaBnahme beteiligt ist. Das 
fuhrt dazu, daB die Wiederherstellungszeiten lang sind und 
Fehler beim WiederherstellungsprozeB das System norma lerweise 
auBer Betrieb setzen. Hinzu kommt, daB wenn die redundanten 
Kopien des Softwaresys terns normal in Betrieb sind (eines als 
Schatten des anderen) , sich der Effekt von Allgemeinmodus- 
fehlern erheblich auswirkt und das ganze System beeintrachtigt. 

Ein Ansatz zur Losung des oben genannten Problems wird in den 
Protokollen des 9. Symposiums tiber zuverlassige verteilte 
Systeme vom 9.-11. Oktober 1990 in Alabama unter dem Titel "The 
Design and Implementation of a Reliable Distributed Operating 
System - ROSE" von T.P. NG beschrieben. In diesem Artikel wird 
ein modulares verteiltes Betriebs system beschrieben, das den 
Aufbau zuverlassiger Anwendungen und die Verarbeitung von Hard- 
warefehlern unterstutzt.-Ziel ist die Verf ugbarkeit von Daten 
trotz dieser Fehler zu erhohen. Dabei werden sogenannte repli- 
zierte AdreBraumob j ekte (RAS-Objekte) bereitgestellt, auf deren 
Inhalt mit hoher Wahrscheinlichkeit zugegriffen werden kann. 
Des weiteren ermoglicht eine sogenannte flexible ProzeBabstrak- 
tion (RP-Abstraktion) den Benutzerprozessen, Hardwaref ehler mit 
minimaler Unterbrechung zu uberstehen. Im folgenden werden vor 
allem zwei verschiedene Implementierungen der f lexiblen Pro- 
zesse vorgestellt: ein ProzeB, der die Information iiber seinen 
Zustand in einem RAS-Objekt regelmaBig priift, und ein zweiter 
ProzeB, der mit wiederholter Ausfiihrung arbeitet, indem der- 
selbe Code zur gleichen Zeit in verschiedenen Knoten ausgefiihrt 
wird. "Modular itat" des verteilten Betriebssystems bedeutet in 
diesem Sinn, daB die Kernschicht des Betriebssystems zahlreiche 
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Prozesse mit unterschiedlichen AdreBraumen unterstiitzt. Inner- 
halb jedes Proz esses und seines AdreBraums konnen mehrere Auf- 
gaben parallel ausfiihren und uber einen geteilten Speicher mit- 
einander kommunizieren. Mehrere Prozesse konnen replizieren und 
einen Teil ihres AdreBraums teilen. Mehrere Prozesse repli- 
zieren die Ausfuhrung einer Anwendung, um ein Bild eines 
einzelnen, aber sehr zuverlassigen Prozesses bereitzustellen. 
Die Anwendungen konnen zwei Prozesse aufstellen, die zum selben 
Konf igurationsobjekt gehoren und ein RAS-Objekt teilen. Bei 
einem Fehler in einem der Prozesse konfiguriert sich der zweite 
Prozesse neu, um den ersten ProzeB aus der Konf iguration zu 
entfernen. Wenn die Umkonf igurierung erfolgreich ist, liest der 
zweite ProzeB den Inhalt des RAS-Objekts und nimmt die Ver- 
arbeitung an dem Punkt wieder auf , an dem der erste ProzeB auf- 
gehort hat, 

Gegenstand der Erfindung ist es daher, die Verfiigbarkeit eines 
Systems von Computerprogrammen in einem verteilten Computer- 
system zu erhohen, bei dem die Wiederherstellung nach einem 
Software- oder Hardwarefehler erfolgt, bevor der Fehler im 
System sichtbar wird. 

Ein weiterer Gegenstand der Erfindung ist es, eine Fehlertole- 
ranz in einem System mit Computerprogrammen in einem verteilten 
Computersystem mit hoher Verfiigbarkeit und schneller Wiederher- 
stellungszeit bereitzustellen. 

Ein weiterer Gegenstand der Erfindung ist es, eine bessere Ver- 
fiigbarkeit in einem System mit Computerprogrammen in einem ver- 
teilten Computersystem zu gewahrleisten, wobei die Software 
weniger komplex als bei der herkommlichen Technik ist. 

Diese Gegenstande, Merkmale und Vorteile der Erfindung sind 
durch das in Anspruch 1 beschriebene Verfahren gekennzeichnet. 
Die Erfindung beschreibt einen Mechanismus zur Organisation der 
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Computersoftware, die nach einem Fehler (der Software selbst 
oder der Hardware) wiederhergestellt wird, noch bevor der 
Fehler sichtbar wird. Die Software sorgt mit anderen Worten da- 
ftir, daB sie nach einem Fehler wiederhergestellt wird und den 
Stimulus verarbeitet oder ablehnt, so dafi der Benutzer des 
Systems das Ergebnis innerhalb der fur diese Art Stimulus vor- 
gesehenen Reaktionszeit erhalt. 

Eine Sof twarestruktur , die als Betriebseinheit (OU) bezeichnet 
wird, und eine dazugehorende Verf ugbarkeitsmanagementf unktion 
J AMF) sind die wichtigsten Bestandteile der Erfindung. Im fol- 
genden werden die OU und Teile der AMF beschrieben. Das OU-Kon- 
zept sieht so aus, daB die Systemsoftware so weit wie moglich 
in unabhSngige Module unterteilt wird, die iiber einen Netzwerk- 
Server miteinander in Wechselwirkung treten. Ein Stimulus er- 
reicht das System und wird zum ersten Modul in der Ver- 
kettungsstruktur geleitet, von wo er alle erf order lichen Module 
durchlauft, bis die entsprechende Reaktion erfolgt und dem Be- 
nutzer des Systems bereitgestellt wird. 

Jedes Modul besteht eigentlich aus zwei Kopien des Codes und 
Datenraums der OU- Eine der „Kopien, der primare AdreBraum 
(PAS), enthalt die aktuellen Zustandsdaten. Die andere Kopie, 
der ErsatzadreBraum (SAS) , lauft auf einem anderen Prozessor 
und kann aktuelle Zustandsdaten enthalten oder nicht, wie noch 
an spaterer Stelle zu beschreiben sein wird. 

Die Verfilgbarkeitsmanagementfunktion (AMF) steuert die Zu- 
we i sung von PAS- und SAS-Komponenten zu den Prozessoren. Wenn 
die AMF einen Fehler feststellt, wird ein SAS zu einem PAS und 
der urspriingliche PAS wird abgeschlossen. Die Daten-Server im 
Netzwerk werden ebenfalls iiber die Anderung informiert, so daB 
die gesamte Kommunikation zum neuen PAS umgeleitet wird. Auf 
diese Art und Weise kann die Systemverfugbarkeit aufrechter- 
halten werden. 
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Diese und andere Gegenstande, Merkmale und Vorteile der Er- 
findung werden anhand der Begleitzeichnungen noch deutlicher. 



Fig. 2 A ist ein schematisches Diagramm mehrerer Betriebsein- 
heiten in einem Netzwerk. 

Fig* 2B ist ein anderes Diagramm der Architektur der 

Betriebseinheit , das die Verwendung einer Daten- 
server-OU durch mehrere Anvendungen zeigt. 

Fig. 2C zeigt die Architektur der Betriebseinheit. 

Fig. 2D zeigt die Architektur der Betriebseinheit mit einem 
Beispiel der Zuweisung allgemeiner Betriebseinheiten 
in drei Gruppen. 

Fig. 3A-F zeigen die Betriebseinheit in verschiedenen Stufen 

wahrend der Initialisierung und des Betriebs, der Um- 
konf igurierung und Wiederherstellung. 

Fig. l zeigt ein Zeitdiagramm mit Reaktionszeitzuweisung. Die 
benotigte Reaktionszeit (Tmax) zwischen einer Stimulus-Eingabe 
und der erf order lichen Ausgabe wird zugewiesen, so daB ein Teil 
davon fur die norma le Erzeugung der Reaktion (Tnormal) zur Ver- 
fiigung steht, ein Teil fiir eine unvorhergesehene Betriebs- 
mittelbelegung (TBelegung) und ein Teil fiir die Wiederher- 
stellung nach Fehlern (TWiederherstellung) . Der erste Teil, 
Tnormal, wird unter den Software- und Hardwareelementen des 
Systems nach deren Verarbeitungsanf orderungen aufgeteilt. Diese 
Zuweisung bestimmt die von jeder Hardware- und Softwarekom- 
ponenten des Systems benotigte Leistung. Der zweite Teil, 
TBelegung, wird nicht zugewiesen. Der letzte Teil, TWieder-^ 
herstellung, ist ausreichend lang, so daB geniigend Zeit fiir die 



Fig. 



1 



ist ein Zeitdiagramm mit Reaktionszeitzuweisungen. 
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Fehlererkennung (einschlieBlich Auslassungsf ehlern) , Hardware- 
Umkonf igurierung, Sof tware-Umkonf igurierung und die erneute Er- 
zeugung einer erf order lichen Reaktion vorhanden ist. Als Faust- 
regel gilt, daB die bendtigte Reaktionszeit Traax geteilt wird 
und anschlieBend die erste Halfte noch einmal geteilt wird, so 
daB ein Viertel der benotigten Reaktionszeit fur die Er zeugung 
der normalen Reaktion Tnormal zur Verfiigung steht, wahrend das 
zweite Viertel fiir eine unvorhergesehene Betriebsmittelbe- 
legung, TBelegung, bereit steht. Die zweite Halfte der Reakti- 
onszeit, TWiederherstellung, steht dann fiir die Fehlererkennung 
und Reaktionserzeugung zur Verfiigung. 

Die Erfindung beschaftigt sich vor a Hem mit der speziellen 
Frage, wie die fiir die Hardware- und Sof tware-Umkonf igurierung 
benotigte Zeit, TWiederherstellung, eines komplexen Systems auf 
einen Bruchteil von Tmax reduziert werden kann. Dieses Problem 
wird durch eine Softwarestruktur gelost, die als Betriebsein- 
heit (OU) bezeichnet ward, und eine dazugehorende Verfiigbar- 
keitsmanagementfunktion (AMF) . Im folgenden werden nun die OU 
und Teile der AMF beschrieben. 

In Fig. 2A sieht das OU-Konzept so aus, daB die Systemsof tware 
so weit wie moglich in unabhangige Module Oder OU 10 unterteilt 
wird, die iiber einen Netzwerk-Server 12 miteinander in Wechsel- 
wirkung tret en. Keines der Module teilt Dateien mit einem 
anderen Modul, und keines der Module geht davon aus, daB ein 
anderes Modul sich in derselben Maschine wie es selbst bef indet 
(oder nicht) . Ein Stimulus 14 erreicht das System und wird zum 
ersten Modul in der Verkettungsstruktur weitergeleitet, von wo 
aus es alle erf order lichen Module durchlauft, bis eine ent- 
sprechende Reaktion erzeugt und dem Benutzer 16 des Systems zur 
Verfiigung gestellt wird.* ~ 

Jedes Modul speichert samtliche notwendigen Zustandsdaten fiir 
seinen eigenen Betrieb. Wenn zwei oder mehr Module Zugriff auf 
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dieselben Zustandsdaten wollen, (1) mu6 jedes diese Daten ent- 
halten, (2) miissen Aktualisierungen dieser Daten als normale 
Verarbeitungsoperationen unter den Modulen tibermittelt werden, 
Oder (3) muB jedes tolerant gegeniiber moglichen Unterschieden 
zwischen seinen Zustandsdaten und den Daten der anderen Module 
sein. Diese Toleranz kann je nach Anwendung verschieden aus- 
sehen und kann Mechanismen zur Erfassung und zum Ausgleichen 
(Oder zur KorreJctur) von Zustandsunterschieden beinhalten. Wenn 
zwei Module 10 unbedingt eine gemeinsame Datenbasis fur die 
Verarbeitung oder andere Griinde haben miissen, sind sie nicht 
"unabhangig" und werden im Rahmen dieser Erf indung zu einem 
Modul zusanunengefaBt . 

Es ist mSglich, daB ein Modul 10 1 Datenserver-Funktionen fiir 
zahlreiche andere Module durchfiihrt (siehe Fig. 2B) , unter der 
Voraussetzung, daB diese anderen Module 10 Fehler und Verlust 
der Server-Funktion ausgleichen konnen. Ausgleichen heiBt in 
diesein Fall, daB sie ihren Clients weiterhin ihre wichtigen 
Dienste anbieten, und daB der nicht xnogliche Zugriff auf den 
gemeinsaraen Zustand nicht zu einer unannehmbaren Warteschlange 
oder der Unterbrechung des Betriebs fiihrt. Dadurch sind die 
Verwendungsmoglichkeiten dieser gemeinsamen Server naturlich 
eingeschrankt • 

Ein Modul 10 muB schlieBlich vordef inierte verschlechterte oder 
andere Betriebsmodi fvir den Fall bereitstellen, daB die Dienste 
eines anderen Moduls benotigt werden, dieses Modul jedoch nie 
zur Verftigung steht. Eine Ausnahroe bildet der Fall, wenn ein 
Server Teil eines Prozessors ist (wenn er mit der Zuweisung 
oder Verwendung von Prozessorbetriebsmitteln zu tun hat) , dann 
kann das Modul namlich unbedingte Abhangigkeiten vom Server 
haben. In diesein Fall behandelt die Verfiigbarkeitsmanagement- 
funktion einen Fehler des Server als Fehler des Prozessors. 
Wenn ein Modul die oben genannten Bedingungen erfiillt, wird es 
durch die folgende neue Struktur seiner Daten, seiner Logik und 
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seiner Rolle im System zur OU. Diese Struktur ist in Fig. 2C 
dargestellt. 

Zwei vollstandige Kopien der Module werden in zwei unabhangige 
Adreflraume 20, 20' in zwei separate Computer 22, 22* geladen. 
Eines dieser Module kennt der Netzwerk-Server als den primSren 
AdreBraum (PAS) , zu dem samtliche Dienstanf orderungen der 
anderen Module gesendet werden. Das andere Modul ist der Er- 
satzadreBraum (SAS) , den nur der PAS kennt. Alle anderen Module 
kennen diesen AdreBraum nicht. Der PAS sendet anwendungsab- 
hangige Zustandsdaten zum SAS, so daB der SAS den Zustand des 
PAS kennt. Ob die Schnittstelle zwischen dem PAS und dem SAS 
einer OU eine synchrone Festschreibung oder eine nicht synchro- 
nisierte Schnittstelle ist, legt die Erf indung nicht fest; es 
findet ein KompromiB zwischen der stabilen Reaktionszeit und 
der fur einen neu umgestuften PAS benotigten Zeit, urn sich mit 
seinen Servern und Clients zu synchronisieren, statt. Dieser 
KompromiB wird nachfolgend in Strategie 1 beschrieben. 

Der PAS halt den Zustand, der fur die normal e Anwendungsver- 
arbeitung durch das Modul benotigt wird. Der SAS verfiigt liber 
ausreichende Zustandsdaten, so daB er im Bedarfsfall zum PAS 
werden kann. Der benotigte Datenumfang ist dabei von der Anwen- 
dung abhangig und nicht Gegenstand dieser Erf indung ♦ 

Sowohl der PAS als auch der SAS einer OU haben offene Sitzungen 
mit alien Servern der OU. Die SAS-Sitzungen werden nicht be- 
notigt, bis der SAS zum PAS wird. Wenn die AMF den SAS ver- 
anlafit, die Rolle des PAS zu iibernehmen, stellt er sicher, daB 
sein gegenwartiger Zustand selbstkonsistent ist (ein Fehler 
kann sich dadurch ergeben haben, daB der PAS nur einen Teil der 
betref f enden Aktualisierungsmeldungen gesendet hat) , und kommu- 
niziert anschlieBend mit den Clients und Servern des PAS, um 
eine Zustandsiibereinstimmung herzustellen. Die Folge kann sein, 
daB die Zustandsdaten des SAS aktualisiert werden oder die Zu- 
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standsdaten der Clients und Server wiederholt werden. Jede 
Wiederholung muB mit der erneuten Verarbeitung eines beein- 
trachtigten Stimulus und/oder der Informierung der Benutzer, 
daB die Stimuli ignoriert worden sind, einhergehen. Gleich- 
zeitig wird der Netzwerk-Server aktualisiert, so daB er alle 
neuen Oder in Warteschlangen befindlichen Dienstanforderungen 
zum SAS anstatt zum PAS sendet. Mit der letztgenannten MaBnahrae 
wird der SAS zum PAS gemacht, und anschlieBend wird ein neuer 
SAS in einem anderen Prozessor als dem, in dem sich der neue 
PAS befindet, gestartet. 

Laut Erf indung sind mehrere Strategien zur Auf rechterhaltung 
der Ersatzdaten durch den PAS von Bedeutung. Sie werden im folr 
genden kurz zusammengef aBt. 

Strategie 1. Der SAS kann eine komplette Kopie des PAS-Zustands 
enthalten. Wenn die Kopie im SAS f estgeschrieben wird, bevor 
der PAS auf seinen Stimulus reagiert, ist der Wiederanlauf sehr 
schnell, doch die Reaktionszeit fur alle Stimuli dauert am 
langsten. Dieser Ansatz wird besser, wenn es die Reaktions- 
zeitanf orderungen erlauben. 

Strategie 2. Der SAS kann eine "Nachf olge"-Kopie des PAS-Zu- 
stands enthalten. Der PAS sendet in diesem Fall Zustandsaktua- 
lisierungen so wie sie auftreten, am Ende der Verarbeitung 
eines Stimulus, oder stapelt sie fur mehrere Stimuli. Der SAS 
nimmt den jeweiligen PAS-Zustand auf und muB daher die Zu- 
standskonsistenz in seinen Daten und zwischen ihm und seinen 
Servern und Clients prufen. Dies fiihrt zu einer sehr schnellen 
stabilen Reaktionszeit, doch ist die Verarbeitung wahrend der 
Fehlerbehebung langsam. 

Strategie 3. Der SAS kennt die gerade vom PAS verarbeiteten 
Stimuli, so daB ihm der genaue Zustand der Beziehungen zwischen 
dem PAS und seinen Clients und Servern bekannt ist, Zu diesem 
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Zweck ist die Festschreibung von Anfang und Ende einer Trans- 
aktion zwischen PAS und SAS erf orderlich, doch die wahrend der 
Fehlerbehebung erf orderliche Synchronisierung innerhalb der OU 
wird verringert. 

Diese Mechanismen konnen allein oder in verschiedenen Kombina- 
t ion en innerhalb einer OU Anwendung finden. Die Wahl hangt von 
der Art der Stimuli ab, den Reaktionszeitanf orderungen und dem 
von der Anwendung gehaltenen Zustand. 

Die Verfugbarkeitsmanagementfunktion (AMF) 

Bei den oben beschriebenen Eigenschaf ten ist zwar eine OU vor- 
handen, doch eine Verfiigbarkeit erreichen diese allein nicht. 
Die Verfiigbarkeit ergibt sich, indem diese OU-Architektur mit 
einer AMF kombiniert wird, die den Zustand aller OUs im System 
steuert. Die AMF verfugt fiber drei Komponenten, die jeweils 
eigene Rollen bei der Auf rechterhaltung einer hohen Verffigbar- 
keit der System-OUs spielen. Die Beziehung zwischen einer OU 
und der AMF ist in den Figuren 3 A bis 3F dargestellt und wird 
im folgenden beschrieben* 

Die wichtigste AMF-Funktion ist der Gruppenmanager . Eine Gruppe 
ist eine Reihe von ahnlich konf igurierten Prozessoren, die sich 
im Netzwerk befinden, urn eine zuvor festgelegte Serie von einer 
oder mehreren OUs aufzunehmen. Jede Gruppe im System (sofern 
mehr als eine Gruppe vorhanden ist) wird unabhangig von den 
anderen Gruppen verwaltet. In Fig. 2D sind drei Gruppen darge- 
stellt. In diesem Fall sind die OUs in jeder Gruppe (und nicht 
die Prozessoren) abgebildet. 

Die Zahl der Prozessoren in jeder Gruppe und die Zuordnung von 
OU-PAS- und SAS-Komponenten zu diesen Prozessoren konnen je 
nach Verfugbarkeitsanforderung, Leistung jedes Prozessors und 
den Verarbeitungsbediirfnissen jeder PAS- und SAS-Komponente er- 
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heblich variieren. Die einzige Bedingung der Erfindung ist, daB 
sich der PAS und SAS einer OU in zwei getrennten Prozessoren 
bef inden mussen, wenn ein Schutz vor Prozessorf ehlern bestehen 
soli. 

Gruppenmanagement: In Fig. 3 A befindet sich der Gruppenmanager 
in einem der Prozessoren einer Gruppe (dier Prozessor wird von 
ein em nicht in dieser Erfindung vorgestellten Protokoll be- 
stimmt) • Er initialisiert die Gruppe fur Kaltstarts und rekon- 
figuriert die Gruppe im Bedarfsfall fiir eine Fehlerbehebung. 
Innerhalb der Gruppe bef inden sich der PAS und SAS jeder OU in 
separaten Prozessoren, wobei genugend Prozessoren vorhanden 
sind, urn die internen Verfiigbarkeitsanf orderungen zu erfiillen. 
Der Gruppenmanager iiberwacht die Leistung der Gruppe als Ein- 
heit und koordiniert die Erfassung und Behebung aller Fehler 
innerhalb der Gruppe, die nicht auf Systemebene behandelt 
werden muss en* Diese Koordinierung beinhaltet: 

1. Steuerung der Ubernahme der funktionalen Zustandigkeit 
einer OU durch den SAS, Venn festgestellt wird, daB ein 
Fehler entweder im PAS oder im Prozessor oder im ent- 
sprechenden, fiir die Operation des PAS erf order lichen Be- 
triebsmittel aufgetreten ist. 

2. Initiierung des Anlegens eines neuen AdreBraums fiir einen 
neuen SAS, nachdem ein friiherer SAS zum PAS geworden ist. 

3. Aktualisierung des Bildes des Netzwerk-Servers vom Stand- 
ort jeder OU, wenn ihr PAS unter Prozessoren einer Gruppe 
als Reaktion auf Fehler oder das geplante Ausschalten ein- 
zelner Gruppenprozessoren wandert. 

Der Gruppenmanager stellt Fehler wie Prozessorf ehler (durch 
Uberwachungsprotokolle zwischen Gruppenmitgiiedern) und Fehler 
einer OU fest, die sowohl den PAS als auch den SAS beein- 
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trachtigen, zum Beispiel Fehler, die durch ein fehlcrhaftes 
Design bei der Kommunikation zwischen den beiden oder der ge- 
meinsamen Verarbeitung von Ersatz-/Sicherungszustandsdaten auf- 
treten. Die Mechanismen der Fehlererf assung werden in dieser 
Erfindung nicht behandelt. 

Lo kales Management: Die Unterstutzung der OU-Architektur auf 
Gruppenebene hangt vom Vorhandensein bestimmter Funktionen in 
jedem Prozessor der Gruppe ab. Diese Funktionen werden als 
lokaler Manager 32 der AMF bezeichnet. Der lokale Manager ist 
in jedem Prozessor als Erweiterung des Steuerprogramms des Pro- 
zessors implementiert und ist fiir die Erf assung und Korrektur 
von Fehlern zustandig, die ohne Beteiligung einer hoheren Ebene 
(Gruppe oder daruber) behoben werden konnen. Der lokale Manager 
halt IJberwachungsprotokollkoitanunikationen mit jedem PAS oder 
SAS der OU in seinem Prozessor aufrecht, um nach Anormalitaten 
in ihrer Lei stung Ausschau zu halten. Ferner erhalt er eine 
Meldung vom Betriebssystem tiber ein auf der Ma schinen ebene in 
der Hardware oder Software f estgestelltes Problem. Jedes Pro- 
blem, das nicht lokal behoben werden kann, wird an den Gruppen- 
manager zur Losung weitergegeben . 



Globales Management: Die Isolierung und Korrektur von Problemen 
auf Systemebene und Problemen im Zusammenhang mit dem Netzwerk 
sind Aufgabe des globalen Managers 34 der AMF. Der globale 
Manager 34 korreliert Fehler und Zustande auf niedrigeren 
Ebenen, um Fehler im Netzwerkverhalten, Gruppenverhalten und 
Reakt ions zei ten von Verkettungsstrukturen bestehend aus zahl- 
reichen Prozessoren zu erfassen und zu isolieren. Ferner tritt 
er mit dem Benutzer des Systems in Verbindung, um Fehler zu be- 
heben, die die Automation nicht beseitigen kann* Der globale 
Manager kann an jeder Station im Netzwerk arbeiten und ist 
selbst eine OU. Das Wandern der globalen Manager-OU 34 von 
einer Gruppe zur anderen wird bei Bedarf vom Benutzer durch 
Funktionen initiiert und iiberwacht, die im lokaleh Manager in 
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jeder Prozessorstation enthalten sind. 

Net zwerkmanagement : Der Netzwerkmanager ist Teil des globalen 
Managers 34 der AMF. Seine Funktionalitat und sein Design 
hangen von der Konf iguration ab und sind nicht Gegenstand der 
vorliegenden Erfindung. 

Die Figuren 3A-F zeigen die Funktionalitat der AMF wahrend der 
Initialisierung, des Betriebs, der Rekonf iguration und der 
Wiederherstellung des Systems* In Fig. 3 A werden der PAS und 
SAS geladen und initialisiert . Die OU-Standorte werden in den 
Netzwerk-Server eingegeben. Fig. 3B zeigt die Synchronisierung 
des PAS und SAS mit den Clients und Servern, um eine Zustands- 
konsistenz zu erzielen. Fig. 3C zeigt eine stabile Zustandsope- 
ration, bei der der PAS auf einen Stimulus reagiert und eine 
Reaktion erzeugt. Der SAS wird vom PAS aktualisiert . 

Fig. 3D zeigt, was passiert, wenn der PAS ausfallt. Der alte 
SAS wird zum neuen PAS, und ein neuer SAS wird geladen und 
initialisiert. Die Netzwerk-Server werden ebenfalls rait dem 
neuen Standort der OU aktualisiert. Fig. 3E zeigt die Re- 
synchronisierung des neuen PAS mit den Clients und Servern. Im 
stabilen Zustand (Fig. 3E) reagiert der neue PAS normal auf 
Stimuli. 

Die Erf indung beschreibt eine Kombination der OU-Struktur und 
den Wiederherstellungsfunktionen der AMF. Herkommliche 
Strategien und Mechanismen zur Sof tware-Fehlerbe- 
hebung/Umschaltung beziehen sich zum Vergleich auf Einheiten 
von ganzen Prozessoren und nicht auf kleinere Sof tware-Ein- 
heiten wie in dieser Erf indung. Da die Fehler- und Wiederher- 
stellungseinheit , auf die die Erfindung abzielt, vergleichs- 
weise klein ist, ist auch die Wiederherstellungszeit kurz. 
Hinzu kommt, daB die Wiederherstellung nach Fehlern auf Pro- 
zessorebene in kleinen Schritten in mehreren Prozessoren er- 
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folgen kann (in alien Prozessoren, die zur Aufnahme von SAS und 
PAS benutzt werden, die im Prozessor mit dem Fehler enthalten 
sind) • Dies ist ftir die Auf rechterhaltung einer hohen Verf ug- 
barkeit in grofien Echtzeitsystemen von ausschlaggebender 
Bedeutung . 
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ANSPRUCHE 

1- Ein Verfahren zur Erhohung der Betriebsverfugbarkeit eines 
Systems von Computer programmen in einem verteilten 
Computer system, das folgende Schritte umfaBt: 

die Unterteilung eines Computerprogramms in zahlreiche un- 
abhangige funktionale Module (10) , die iiber einen Oder 
mehrere Server (12) , die im verteilten System miteinander 
verbunden sind, untereinander in Wechselwirkung treten, 
wobei keines der funktionalen Module Daten mit einem 
anderen Modul teilt, und wobei alle funktionalen Module 
samtliche notwendigen Zustandsdaten fur ihren eigenen 
Betrieb speichern; 

die Steuerung des Zustands aller funktionalen Module (10) 
durch Verfiigbarkeitsmanagementmittel, die die Leistung der 
funktionalen Module uberwachen und die Erfassung und 
Behebung von Systemf ehlern koordinieren; 

das Laden einer ersten Kopie eines funktionalen Moduls in 
einen AdreSraum (20) eines ersten Prozessors (22) und das 
Versetzen einer zweiten Kopie des funktionalen Moduls in 
einen AdreSraum (20 1 ) eines zweiten Prozessors (22*), wo- 
bei beide AdreBraume physisch getrennt und unabhangig von- 
einander sind, und der AdreSraum des zweiten Prozessors 
nur dem entsprechenden ersten Prozessor bekannt ist; 

wobei der erste Prozessor das erste funktionale Modul aus- 
fiihrt, um anwendungsabhangige Zustandsdaten zum zweiten 
Prozessor zu senden, wo diese vom zweiten funktionalen 
Modul empfangen werden, das auf dem zweiten Prozessor aus- 
gefiihrt wird; 

wobei der erste Prozessor das erste Modul ausfuhrt und 
BT 990 004 
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einen normalen Anwendungsverarbeitungszustand halt, und 
der zweite Prozessor das zweite Modul ausftihrt und aus- 
reichende Daten iiber den zweiten Zustand halt, die es ihra 
ermoglichen, zum ersten funktionalen Modul zu werden; 

wobei der erste Prozessor, der das erste Modul ausfiihrt, 
offene Sitzungen mit zahlreichen der Server hat, die mit 
ihm verbunden sind, und der zweite Prozessor, der das 
zweite Modul ausfiihrt, zahlreiche offene Sitzungen mit 
alien Server n im Netzwerk hat; 

wobei das zweite funktionale Modul als Reaktion auf einen 
Stimulus, der es veranlaBt, die Rolle des ersten funktio- 
nalen Moduls zu iibernehmen, prtift, daB sein aktueller Zu- 
stand konsistent mit dem aktuellen Zustand des ersten 
funktionalen Moduls ist, worauf das zweite Modul mit alien 
Servern im Netzwerk kommuniziert , urn eine Synchronisierung 
mit dem Zustand der Server herzustellen, wonach das erste 
funktionale Modul aufgegeben und die Server mit dem neuen 
AdreBraum aktualisiert werden; 

wobei alle im Netzwerk angeschlossenen Clients und Server 
auf das zweite Modul reagieren, das die Rolle des ersten 
Moduls ubernommen hat, indem alle neuen bder in Warte- 
schlangen befindlichen Dienstanf orderungen zum zweiten 
Modul anstatt zum ersten Modul geleitet werden; 

wobei das zweite Modul die Rolle des ersten Moduls iiber- 
nimmt, indem es Operationen eines primaren Adrefiraums (20) 
durchfiihrt. 

2. Das Verfahren nach Anspruch 1, "bei dem das erste Modul und 
das zweite Modul synchron koromunizieren. 

3. Das Verfahren nach Anspruch 1, bei dem das erste Modul und 
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das zweite Modul asynchron koinmunizieren. 

4. Das Verfahren nach Anspruch 1, bei dem das zweite Modul 
eine vollstandige Kopie des Zustands des ersten Moduls 
halt. 



5. Das Verfahren nach Anspruch 1, bei dem das zweite Modul 
eine Nachf olgekopie des Zustands des ersten Moduls halt, 

6, Das Verfahren nach Anspruch 1, bei dem das zweite Modul 
die Stimuli kennt, die gerade vom ersten Modul verarbeitet 
werden . 
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